Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
作为一种成功的自我监督学习方法,对比学习旨在学习输入样本扭曲之间共享的不变信息。尽管对比度学习在抽样策略和架构设计方面取得了持续的进步,但仍然存在两个持续的缺陷:任务 - 核定信息的干扰和样本效率低下,这与琐碎的恒定解决方案的反复存在有关。从维度分析的角度来看,我们发现尺寸的冗余和尺寸混杂因素是现象背后的内在问题,并提供了实验证据来支持我们的观点。我们进一步提出了一种简单而有效的方法metamask,这是元学习学到的维度面膜的缩写,以学习反对维度冗余和混杂因素的表示形式。 MetAmask采用冗余技术来解决尺寸的冗余问题,并创新地引入了尺寸掩模,以减少包含混杂因子的特定维度的梯度效应,该效果通过采用元学习范式进行培训,以改善掩盖掩盖性能的目标典型的自我监督任务的表示。与典型的对比方法相比,我们提供了坚实的理论分析以证明元掩体可以获得下游分类的更严格的风险范围。从经验上讲,我们的方法在各种基准上实现了最先进的性能。
translated by 谷歌翻译
从大脑活动中解码图像一直是一个挑战。由于深度学习的发展,有可用的工具可以解决此问题。解码图像旨在将神经尖峰列车映射到低级视觉特征和高级语义信息空间。最近,有一些关于从尖峰列车解码的研究,但是,这些研究更少关注神经科学的基础,很少有研究将接受场合并为视觉图像重建。在本文中,我们提出了一种具有生物学特性的深度学习神经网络体系结构,以从尖峰火车中重建视觉图像。据我们所知,我们实施了一种将接收场属性矩阵集成到损失函数中的方法。我们的模型是从神经尖峰火车到图像的端到端解码器。我们不仅将Gabor过滤器合并到自动编码器中,该自动编码器用于生成图像,还提出了具有接收场特性的损失函数。我们在两个数据集上评估了我们的解码器,这些数据集包含猕猴的一级视觉皮层神经尖峰和sal虫视网膜神经节细胞(RGC)峰值。我们的结果表明,我们的方法可以有效地结合感受的特征以重建图像,从而根据神经信息提供一种新的视觉重建方法。
translated by 谷歌翻译
视频超分辨率(VSR)是从一系列低分辨率输入序列恢复高分辨率帧的任务。与单图超分辨率不同,VSR可以利用框架的时间信息来重建结果,并提供更多详细信息。最近,随着卷积神经网络(CNN)的快速发展,VSR任务引起了人们的关注,许多基于CNN的方法取得了显着的结果。但是,由于计算资源和运行时限制,只能将一些VSR方法应用于现实世界移动设备。在本文中,我们提出了一个\ textIt {基于滑动窗口的重复网络}(SWRN),该网络可以实时推断,同时仍能达到卓越的性能。具体而言,我们注意到视频帧应该具有可以帮助恢复细节的空间和时间关系,而关键点是如何提取和汇总信息。解决它,我们输入了三个相邻的帧,并利用隐藏状态来重复存储和更新重要的时间信息。我们在REDS数据集上的实验表明,所提出的方法可以很好地适应移动设备并产生视觉上令人愉悦的结果。
translated by 谷歌翻译
现有的少量图像生成方法通常在图像或特征级别采用基于融合的策略来生成新图像。但是,以前的方法很难通过细节良好的细节合成高频信号,从而恶化了合成质量。为了解决这个问题,我们提出了Wovegan,这是一种用于几弹图像生成的频率感知模型。具体而言,我们将编码的特征分解为多个频率组件,并执行低频跳过连接以保留轮廓和结构信息。然后,我们通过采用高频跳过连接来减轻发电机综合细节的斗争,从而为发电机提供信息频率信息。此外,我们在生成的图像和真实图像上利用频率L1损失来进一步阻碍频率信息丢失。广泛的实验证明了我们方法在三个数据集上的有效性和进步。值得注意的是,我们以FID 42.17,LPIPS 0.3868,FID 30.35,LPIPS 0.5076和FID 4.96,LPIPS分别为0.3822,在花,动物面和VGGFace上分别为0.3822。 github:https://github.com/kobeshegu/eccv2022_wavegan
translated by 谷歌翻译
了解驾驶场景中的雾图像序列对于自主驾驶至关重要,但是由于难以收集和注释不利天气的现实世界图像,这仍然是一项艰巨的任务。最近,自我训练策略被认为是无监督域适应的强大解决方案,通过生成目标伪标签并重新训练模型,它迭代地将模型从源域转化为目标域。但是,选择自信的伪标签不可避免地会遭受稀疏与准确性之间的冲突,这两者都会导致次优模型。为了解决这个问题,我们利用了驾驶场景的雾图图像序列的特征,以使自信的伪标签致密。具体而言,基于顺序图像数据的局部空间相似性和相邻时间对应的两个发现,我们提出了一种新型的目标域驱动的伪标签扩散(TDO-DIF)方案。它采用超像素和光学流来识别空间相似性和时间对应关系,然后扩散自信但稀疏的伪像标签,或者是由流量链接的超像素或时间对应对。此外,为了确保扩散像素的特征相似性,我们在模型重新训练阶段引入了局部空间相似性损失和时间对比度损失。实验结果表明,我们的TDO-DIF方案有助于自适应模型在两个公共可用的天然雾化数据集(超过雾气的Zurich and Forggy驾驶)上实现51.92%和53.84%的平均跨工会(MIOU),这超过了最态度ART无监督的域自适应语义分割方法。可以在https://github.com/velor2012/tdo-dif上找到模型和数据。
translated by 谷歌翻译
四型是敏捷平台。对于人类专家,他们可以在混乱的环境中进行极高的高速航班。但是,高速自主飞行仍然是一个重大挑战。在这项工作中,我们提出了一种基于走廊约束的最小控制工作轨迹优化(MINCO)框架的运动计划算法。具体而言,我们使用一系列重叠球来表示环境的自由空间,并提出了两种新型设计,使算法能够实时计划高速四轨轨迹。一种是一种基于采样的走廊生成方法,该方法在两个相邻球之间生成具有大型重叠区域(因此总走廊大小)的球体。第二个是一个后退的地平线走廊(RHC)策略,其中部分生成的走廊在每个补给中都重复使用。这两种设计一起,根据四极管的当前状态扩大走廊的空间,因此使四极管可以高速操纵。我们根据其他最先进的计划方法基准了我们的算法,以显示其在模拟中的优势。还进行了全面的消融研究,以显示这两种设计的必要性。最终在木材环境中对自动激光雷达四型二次无人机进行了评估,该方法的飞行速度超过13.7 m/s,而没有任何先前的环境或外部定位设施图。
translated by 谷歌翻译
突发超级分辨率(SR)提供了从低质量图像恢复丰富细节的可能性。然而,由于实际应用中的低分辨率(LR)图像具有多种复杂和未知的降级,所以现有的非盲(例如,双臂)设计的网络通常导致恢复高分辨率(HR)图像的严重性能下降。此外,处理多重未对准的嘈杂的原始输入也是具有挑战性的。在本文中,我们解决了从现代手持设备获取的原始突发序列重建HR图像的问题。中央观点是一个内核引导策略,可以用两个步骤解决突发SR:内核建模和HR恢复。前者估计来自原始输入的突发内核,而后者基于估计的内核预测超分辨图像。此外,我们引入了内核感知可变形对准模块,其可以通过考虑模糊的前沿而有效地对准原始图像。对综合和现实世界数据集的广泛实验表明,所提出的方法可以在爆发SR问题中对最先进的性能进行。
translated by 谷歌翻译
Levenberg-Marquardt(LM)优化算法已广泛用于解决机器学习问题。文学评论表明,当网络中的权重数不超过几百个时,LM对中等函数近似问题的LM非常强大而有效。相比之下,在处理模式识别或分类问题时,LM似乎并不表现,并且当网络变大时效率低(例如,超过500重量)。在本文中,我们利用一些现实世界飞机数据集利用LM算法的真正力量。在这些数据集上,大多数其他常用的优化器无法检测到飞机发动机的变化条件引起的异常。数据集的具有挑战性是时间序列数据的突然变化。我们发现LM优化器具有更好的近似突然变化的能力,并检测除其他优化器的异常。我们比较LM和几个其他优化器的这种异常/更改检测问题的性能。我们基于一系列措施评估了相对性能,包括网络复杂性(即权重的数量),拟合精度,拟合,培训时间,GPU和内存要求等的使用等措施。我们还讨论了Matlab中强大的LM实现问题Tensorflow用于推广LM算法的更多流行使用以及LM优化器的潜在使用进行大规模问题。
translated by 谷歌翻译
常规域中的文本到图像生成长期以来一直是一个开放问题,这需要强大的生成模型和跨模型理解。我们提出CogView,一个带VQ-VAE牌器的40亿参数变压器来推进此问题。我们还展示了各种下游任务的FineTuning策略,例如,风格学习,超分辨率,文本图像排名和时装设计,以及稳定预制雷岭的方法,例如,消除南损失。Cogview在模糊的MS Coco DataSet上实现最先进的FID,优于以前的基于GAN的模型和最近类似的工作Dall-e。
translated by 谷歌翻译